WUSH: Transformaciones Adaptativas Casi Óptimas para Cuantización de LLM
WUSH mejora la cuantización de LLMs hasta +2.8 puntos en W4A4. Transformaciones adaptativas casi óptimas para despliegue eficiente en GPU.
WUSH mejora la cuantización de LLMs hasta +2.8 puntos en W4A4. Transformaciones adaptativas casi óptimas para despliegue eficiente en GPU.
Estimación de escala de ventana máxima para cuantización W8A8 casi sin pérdidas. Aprende a optimizar modelos reduciendo la degradación y mejorando la eficiencia.